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摘要 人 工 智 能 领域 近年 来 取得 突破 进展 ， 如 何在 自然 科学 领域 采用 人 工 智 能 新 技术 促进 科学 发 现 ， 成 为 科学 家 
和 产业 界 的 关注 焦点 。 多 学 科 、 跨 领域 交叉 背景 下 的 科学 大 数据 挖掘 分 析 与 知识 发 现 ， 依 赖 于 构建 一 套 高 效 、 易 
用 、 可 扩展 的 科学 大 数据 智能 分 析 软 件 系 统 ， 为 复杂 数据 处 理 、 分 析 、 模 式 提 取 和 知识 发 现 提 供 学 习 模 型 、 算 法 


及 开发 工具 支持 。 文 章 选取 典型 科学 领域 内 代表 性 的 智能 


分 析 软 件 系统 进行 充分 的 调研 ， 对 比分 析 这 类 软件 的 共 


性 和 差异 ， 并 探讨 其 发 展 趋 势 。 在 此 基础 上 ， 文 章 提出 一 个 面向 科学 大 数据 的 一 体 化 、 可 定制 的 智能 分 析 框 架 ， 
支撑 科学 家 交互 式 构建 智能 分 析 模 型 并 高 效 执行 ， 为 快速 开展 科学 发 现 研究 提供 系统 和 工具 支撑 。 


关键 词 科学 大 数据 ， 智 能 分 析 ， 数 据 密集 型 科学 发 现 ， 软 件 系统 
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2007 年 图 灵 奖 得 主 吉姆 .格雷 Jim Gray ) 发 表 了 著 
名 演讲 《科学 方法 的 革命 》， 将 科学 研究 分 为 4 类 范式 
(paradigm ) ， 即 实验 归纳 、 模 型 推演 、 仿 真 模 拟 和 数据 
密集 型 科学 发 现 ( data-intensive scientific discovery ) ， 从 
而 提出 了 被 广泛 称 为 “第 四 范式 ”的 “科学 大 数据 ”新 
视角 MM"。 经 过 10 年 的 技术 发 展 ， 深 度 学 习 等 先进 技术 在 图 
像 、 语 音 、 自 然 语言 等 人 工 智能 领域 均 取得 突破 进展 。 
在 自然 科学 领域 ， 近 年 来 科学 家 们 也 紧 跟 趋势 ， 基 于 科 
学 大 数据 驱动 的 新 模式 ， 采 用 深度 学 习 等 新 技术 ， 取 得 


* 通 讯 作者 
资助 项 目 : 中 国 科 学 院 战 略 性 先导 科技 专项 (XDA19020500) 
修改 稿 收 到 日 期 : 2018 年 8 月 6 日 


812|2018 年 -第 33 卷 第 8 其 


了 一 批 重大 科学 发 现成 果 ， 发 表 在 Science、Nature 等 权 
威 学 术 刊 物 。 然 而 ， 大 数据 驱动 的 科学 研究 工作 因为 严 
重 依赖 于 先进 的 信息 技术 ， 对 于 大 多 数 科 学 家 团队 而 言 
仍 具 有 一 定 门槛 。 

多 学 科 、 监 领域 交 义 背景 下 的 科学 大 数据 挖 气 分 析 
与 知识 发 现 ， 依 赖 于 构建 一 套 高 效 、 易 用 、 可 扩展 的 科 
学 大 数据 智能 分 析 软 件 系统 ， 为 复杂 数据 处 理 、 分 析 、 
模式 提取 和 知识 发 现 提 供 学 习 模 型 、 算 法 及 开发 工具 文 
持 。 通 过 分 析 该 领域 发 展现 状 ， 我 们 发 现 ， 一 些 分 析 软 
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件 因为 运行 在 单机 环境 而 无 法 处 理 大 规模 数据 ， 一 些 分 
析 软 件 因 需 要 较 高 的 编程 开发 技能 而 令 科 学 家 团队 望 而 
却步 。 随 着 云 计算 、 大 数据 和 人 工 智 能 技术 的 发 展 ， 利 
用 云 计算 平台 承载 人 工 智 能 技术 进行 大 数据 智能 分 析 已 
经 成 为 趋势 ， 而 开放 共享 与 个 性 化 定制 也 成 为 软件 发 展 
的 主流 方向 。 从 中 可 以 总 结 出 科学 大 数据 智能 分 析 软 件 
的 五 大 发 展 趋势 : AI 赋 能 、 一 体 化 、 云 服务 、 开 放 共 享 
和 可 定制 。 

笔者 通过 对 众多 科学 家 进行 需求 调研 ， 结 合 大 数据 
智能 分 析 技 术 及 软件 的 发 展 趋势 ， 提 出 了 一 个 面向 科学 
大 数据 的 一 体 化 、 可 定制 的 智能 分 析 框 架 ， 支 持 科学 家 
交互 式 的 构建 智能 分 析 模 型 ,并 基于 云 平 台 分 布 式 计算 
引擎 实现 分 析 模 型 的 高 效 执行 ， 为 快速 开展 科学 发 现 研 
究 提 供 系 统 和 工具 文 撑 。 期 望 通过 该 智能 分 析 框 架 的 研 
发 与 应 用 ， 为 下 一 代 科 学 大 数据 智能 分 析 软 件 提供 参考 
方案 。 


1 发 展现 状 

数据 密集 型 科学 发 现 离 不 开 软 件 系统 的 支撑 ， 本 
文 的 研究 对 象 聚焦 于 近 10 年 来 面向 科学 大 数据 智能 分 
析 的 典型 软件 系统 。 从 适用 范围 来 看 ， 科 学 大 数据 智能 
分 析 软 件 可 以 简单 分 为 通用 型 和 领域 专用 型 两 类 。 通 用 
型 智能 分 析 软 件 是 大 数据 、 人 工 智能 等 领域 的 通用 分 析 
软件 ， 并 被 科学 家 团队 应 用 于 特定 领域 的 研究 工作 ， 
如 Matlab"。 领 域 专用 型 智能 分 析 软 件 是 指针 对 特定 科学 
领域 的 专 有 分 析 软 件 ， 如 地 学 、 资 源 环境 科学 领域 流行 
的 Google Earth Engine”, 
1.1 通用 型 科学 大 数据 智能 分 析 软 件 

大 数据 和 人 工 智 能 技术 发 展 迅 速 ， 涌 现 了 大 量 软件 
系统 ， 本 文选 取 科学 家 团队 较为 常用 、 具 有 代表 性 的 智 
能 分 析 软 件 ， 并 依据 软件 系统 的 部 署 模式 ， 将 这 些 软件 


(D MATLAB: https://ww2.mathworks.cn/products/matlab.html. 
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分 为 3 类 一 一 单机 环境 、 分 布 式 环境 和 云 计 算 环 境 ， 同 
时 这 也 是 智能 分 析 软 件 发 展 的 3 个 阶段 。 

(1) 单机 环境 智能 分 析 软 件 。 在 商业 数据 分 析 软 
件 方面 ，Matlab 提供 了 用 于 算法 开发 、 数 据 可 视 化 、 数 
据 分 析 以 及 数值 计算 的 高 级 编程 语言 和 交互 式 环境 ， 在 
众多 科学 领域 应 用 广泛 。 在 众多 开源 免费 数据 分 析 软 件 
中 ，R 语言 ~"、Scikit-Learn""、Weka "是 典型 代表 。R 语言 
是 一 种 用 于 统计 分 析 和 绘图 的 语言 ， 提 供 了 丰富 的 统计 
分 析 功 能 ， 用 户 还 可 以 通过 开发 并 安装 扩展 包 增 强 及 的 
功能 。 Python 语言 拥有 大 量 科学 数据 分 析 的 算法 库 ， 
其 中 就 包括 被 广泛 应 用 于 机 器 学 习 和 数据 挖掘 的 Scikit- 
Learno Weka 数据 挖掘 平台 基于 Java 语 言 开 发 ， 提 供 了 可 
视 化 、 拖 搜 式 的 分 析 流 程 设 计 界 面 ， 并 集成 了 大 量 数据 
预 处 理 和 机 器 学 习 算 法 。 这 些 软件 系统 在 设计 之 初 是 以 
单机 模式 运行 ， 无 法 针对 基于 分 布 式 存储 的 大 数据 进行 
处 理 ， 在 大 数据 场景 下 存在 先天 不 足 。 此 外 ， 这 些 软件 
系统 还 缺乏 对 深度 学 习 技 术 的 有 效 支 持 。 

(2) 分 布 式 环境 智能 分 析 软 件 。 在 分 布 式 环境 
下 ,开源 社区 提供 的 大 数据 分 析 软 件 成 为 主流 ，Hadoop 
Mahout, Spark MLlip" 是 其 中 的 典型 代表 ,研究 人 员 
借助 于 Hadoop、Spark 框架 ,解决 了 分 布 式 并 行 挖 气 问 
题 ， 并 提供 了 典型 的 机 器 学 习 算 法 和 模型 。 近 年 来 ， 涌 
现 出 一 批 开源 深度 学 习 框 架 ， 例 如 Tensor Flow, Caffe, 
CNTK, MXNet 等 ， 用 于 深度 神经 网 络 模 型 的 构建 及 训 
练 ， 支 持 分 布 式 计算 和 异 构 计算 ”。 尽 管 这 些 开源 软件 提 
供 了 丰富 的 算法 库 和 高 效 的 分 布 式 计算 平台 ,但 仍 需要 
专业 的 编程 开发 和 系统 配置 技能 ， 昌 学习 曲 线 陡 峭 ， 不 
利于 科学 家 团队 使 用 。 

(3) 云 计算 环境 智能 分 析 软 件 。 通 过 云 平台 提供 
大 数据 智能 分 析 服 务 已 成 为 大 型 公有 云 平台 的 标 配 服 


务 ，“ 机 需 学 习 即 服务 ” (machine learning as a service, 


(2) Comparison of deep learning software: https://en.wikipedia.org/wiki/Comparison of deep learning software. 
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MlaaS ) 也 成 为 多 家 领先 云 平台 厂商 的 发 展 趋势 。Azure 
Machine Learning ( Azure ML ) 是 微软 Azure 云 平台 提供 
的 机 器 学 习 分 析 服 务 中 ， 在 提供 大 量 通 用 机 器 学 习 分 析 
算法 基础 上 ，Azure ML 还 面向 数据 科学 家 用 户 提 供 了 
交互 式 的 图 形 化 开发 界面 。 类 似 的 MLaas 还 包括 Aliyun 
PAI 等 。 这 些 系统 通常 仅 支 持 某 种 特定 开发 语言 和 应 用 
程序 编程 接口 (API ) ， 用 户 无 法 自主 扩充 算法 库 ， 存 
在 平台 锁定 (lock-in) 问题 。 除 了 上 述 公 有 云 厂商 提供 
的 大 数据 智能 分 析 服 务 ， 一 些 科学 家 团队 将 具有 “浏览 
器 /服务 器 ”架构 模式 的 交互 式 分 析 软 件 部 署 在 公有 云 
或 私有 云 ， 实 现 了 “简化 版 ”的 MLaaS 。 例 如 ，Jupyter 
Notebook“ 是 支持 “浏览 器 /服务 器 ”架构 的 交互 式 分 析 软 
件 ， 支 持 通过 浏览 器 编辑 运行 多 种 编程 语言 ， 在 服务 器 
端 进行 数据 处 理 、 数 值 模拟 、 统 计 建 模 、 机 器 学 习 以 及 
可 视 化 等 。 
1.2 领域 专用 型 科学 大 数据 智能 分 析 软 件 

自然 科学 包括 大 量 细 分 领域 ， 每 个 领域 都 存在 专 
用 的 科学 数据 分 析 软 件 ， 本 文选 取 其 中 若干 代表 进行 分 
析 ， 并 将 这 些 软件 分 为 两 类 进行 介绍 : 经 典 的 领域 专用 
科学 数据 分 析 软 件 和 新 兴 的 领域 专用 科学 数据 分 析 软 
件 。 

(1) 经 典 的 领域 专用 科学 数据 分 析 软 件 。 这 类 软件 
是 特定 领域 科学 家 专门 研发 的 系统 ， 适 合 对 该 领域 的 科 
学 数据 进行 专门 处 理 、 计 算 和 分 析 。ROOT 是 欧洲 核子 
人 研究 中 心 (CERN ) 开发 的 开源 软件 ， 主 要 用 于 粒子 物理 
实验 的 数据 处 理 、 科 学 计算 和 可 视 化 分 析 ， 提 供 数学 及 
统计 工具 、 并 行 处 理 、 神 经 网 络 及 多 变量 分 析 软 件 包 ， 
是 目前 高 能 物理 领域 数据 分 析 的 典型 工具 。AstroML 是 
而 向 天 文 领域 的 机 器 学 习 和 数据 挖掘 算法 包 钻 ， 建 立 在 


(8) Jupyter: http://jupyter.org/. 

(4) ROOT: https://root.cern.ch/. 

(B) Science Data Analytics Platform (SDAP): https://sdap.apache.org/. 
(6) NERSC: http://www.nersc.gov/. 

(T) DeepVariant: https://github.com/google/deepvariant. 
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NumPy, SciPy, Scikit-Learn 等 Python 算法 库 基 础 上 ， 提 
供 了 多 个 开放 天 文 数据 集 的 加 载 器 ， 以 及 大 量 天 文 领 域 
的 分 析 与 可 视 化 数据 集 案例 。 目 前 ， 这 类 领域 专用 软件 
仍 采用 单机 部 署 ， 无 法 进行 分 布 式 并 行 的 大 数据 处 理 分 
析 ， 并 且 尚 未 对 深度 学 习 技术 提供 集成 与 支持 。 

(2) 新 兴 的 领域 专用 科学 数据 分 析 软 件 。 这 类 软件 
指 采用 了 大 数据 、 机 器 学 习 和 云 计算 等 新 技术 的 分 析 软 
件 。SDAP 目前 是 Apache 软件 基金 会 的 孵化 项 目 ， 是 卫 
向 地 球 物理 海洋 学 领域 的 科学 大 数据 分 析 平 台 。SDAP® 
依赖 于 NEXUS 系统 进行 大 数据 处 理 ，NEXUS 是 由 美国 
国家 航空 航天 局 喷气 推进 实验 室 ( NASA/JPL ) 开发 的 一 
个 软件 项 目 ， 采 用 Map/Reduce 分 布 式 并 行 计算 技术 ,由 
在 对 NASA 各 种 任务 收集 的 大 型 数据 集 进行 科学 分 析 。 
美国 国家 能 源 研究 科学 计算 中 心 (NERSC )“， 具 有 美国 
能 源 部 科学 局 的 主要 科学 计算 设备 。 最 近 NERSC 支持 将 
深度 学 习 应 用 到 气候 研究 、 中 微 子 实验 以 及 神经 科学 研 
究 ， 并 取得 了 一 批 突破 性 科学 发 现 。Verily Life Sciences 
( 原 谷歌 生命 科学 公司 ) 的 研究 人 员 开 发 了 一 种 深入 学 
习 软 件 工具 DeepVariant”， 该 工具 可 将 基因 组 信息 转换 
成 图 像 进行 分 析 ， 可 显著 提升 基因 变异 的 识别 准确 率 。 
Google Earth Engine 是 Google 提供 的 对 大 量 全 球 尺 度 地 球 
科学 资料 (尤其 是 卫星 数据 ) 进行 在 线 可 视 化 分 析 处 理 
的 云 平台 ， 相 关 领 域 的 科学 家 团队 可 以 利用 该 平台 提供 
的 长 时 序 近 地 卫星 数据 以 及 数 千 台 的 云 服务 器 进行 在 线 
数据 处 理 和 分 析 ， 目 前 已 经 取得 了 一 批 有 显示 度 的 研究 
成 果 。 可 以 看 出 ，Google Earth Engine 的 特定 领域 海量 数 
据 、 云 端 分 布 式 并 行 计算 、 在 线 挖 据 分 析 算 法 库 、 地 图 
即时 展现 等 特点 ， 正 代表 了 新 兴 科 学 大 数据 智能 分 析 软 
件 的 发 展 趋势 。 
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2 发 展 趋势 
科学 大 数据 智能 分 析 软 件 的 发 展 趋势 呈现 出 AI 赋 
能 、 一 体 化 、 云 服务 、 开 放 共享 和 可 定制 的 重要 特征 。 
(1) AI 赋 能 。 科 学 家 在 其 研究 领域 尝试 使 用 人 工 知 
能 新 技术 进行 科学 发 现 的 需求 日 益 高 涨 。 因 此 ， 智 能 分 
析 软 件 除了 提供 领域 相关 的 基础 运算 操作 和 传统 算法 ， 
还 需要 支持 深度 学 习 、 自 然 语言 理解 、 知 识 图 谱 等 新 型 
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(5) 可 定制 。 不 同 科 学 领域 的 数据 分 析 模 式 千 差 
万 别 ， 通 用 的 、 固 化 的 大 数据 分 析 软 件 无 法 满足 特定 领 
域 科 学 家 团队 的 个 性 化 分 析 需 求 ， 这 种 个 性 化 需求 存在 
于 分 析 流程 、 数 据 源 、 算 法 模型 、 可 视 化 等 各 个 层面 。 
因此 ， 一 个 理想 的 科学 大 数据 智能 分 析 软 件 应 该 文 持 数 
据 、 模 型 算法 和 可 视 化 视图 等 多 个 方面 的 领域 定制 与 扩 
展 ， 支 持 领 域 科 学 家 以 及 领域 内 的 软件 工程 师 进行 特有 
组 件 的 开发 。 


人 工 智 能 技术 的 集成 应 用 ， 为 人 工 智 能 模型 的 训练 、 测 
试 、 部 署 和 运行 提供 全 生命 周期 的 工具 化 支持 。 

(2) 一 体 化 。 科 学 大 数据 智能 分 析 包 含 复杂 的 数据 
处 理 、 分 析 、 模 式 提 取 和 知识 发 现 过 程 ， 而 现 有 的 大 数 
据 框 架 和 平台 存在 学 习 曲 线 高 、 开 发 代价 大 等 问题 。 因 
此 ,在 传统 “编程 式 ”的 开发 模式 基础 上 ， 还 需要 为 领 
域 科学 家 提供 简单 易 用 的 “拼装 式 ” 可 视 化 挖掘 分 析 环 
境 ， 并 利用 高 质量 、 可 复 用 的 模型 与 算法 库 ， 进 行 科学 
大 数据 分 析 模 型 的 创新 设计 ， 实 现 涵盖 数据 源 集 成 、 代 
人 码 编辑 、 流 程 设计 、 模 型 算法 复 用 以 及 执行 与 可 视 化 的 
一 体 化 支撑 。 

(3) 云 服务 。 云 服务 化 的 科学 大 数据 智能 分 析 软 
件 不 需要 本 地 进行 软件 安装 和 维护 。 因 此 ， 一 方面 ， 浏 
览 器 成 为 挖掘 分 析 全 流程 操作 和 管理 的 统一 门户 界面 ; 
男 一 方面 ， 模型、 算法 以 及 数据 源 将 以 在 线 API 的 形式 
进行 共享 和 复 用 ， 这 一 形式 也 被 称 为 “功能 即 服务 ” 
(function as a service ) 。 

(4) 开放 共享 。 交 叉 科 学 的 重大 发 现 需 要 综合 应 
用 多 领域 的 分 析 模 型 和 算法 。 汇 聚 跨 领 域 的 共性 模型 ， 
形成 类 型 丰富 、 性 能 优异 的 模型 和 算法 库 ， 这 将 成 为 
降低 领域 交叉 综合 分 析 模 型 开发 难度 、 提 升 开发 效率 
的 基础 。 同 时 ， 各 领域 科学 家 团队 通过 共享 高 质量 的 模 
型 和 算法 ， 也 将 促进 软件 系统 持续 演化 ， 使 软件 系统 更 
有 具 生命 力 。 例 如 ，R 语言 算法 库 CRAN 是 交叉 领域 算法 
共享 的 典范 ， 该 算法 库 目 前 收录 了 各 领域 科学 家 贡献 
的 4000 多 种 算法 ， 吸 引 了 大 量 的 用 户 。 


3 科学 大 数据 智能 分 析 软 件 参考 方案 


笔者 所 在 团队 近年 来 完成 了 多 个 科学 、 行 业 领 域 的 
大 数据 系统 研发 ， 目 前 正在 承担 中 国 科学 院 战 略 性 先导 
科技 专项 “地 球 大 数据 科学 工程 ”的 地 球 大 数据 挖掘 分 
析 系 统 ( Big Earth Data Miner ) 研发 任务 。 通 过 对 多 个 领 
域 科 学 家 团队 的 大 数据 分 析 需 求 进行 调研 ， 结 合 现状 及 
趋势 分 析 ， 笔 者 提出 下 一 代 科 学 大 数据 智能 分 析 软 件 的 
参考 方案 (图 1 ) 。 


领域 可 定制 在 线 分 析 云 服务 


( 科学 家 智能 分 析 云 服务 


科学 大 数据 分 布 式 计算 处 理 引擎 | 


科学 大 数据 分 布 式 机 器 学 习 引擎 Eum 
E og 
me 


(算法 和 模型 库 


通用 大 数据 系统 (Hadoop/Spark 等 ) 机 器 学 习 系统 (Spark Mllib/Tensorflow 等 ) 


云 平台 


图 1 科学 大 数据 智能 分 析 软 件 参 考 方案 


该 软件 系统 基于 云 平 台 部 署 ， 采 用 通用 大 数据 系统 
和 机 器 学 习 系 统 作 为 底层 计算 支撑 ; 在 此 基础 上 ， 提 供 
满足 领域 特性 需求 的 科学 大 数据 分 布 式 计算 处 理 引 擎 和 
机 器 学 习 引擎 ， 支 持 科 学 大 数据 分 析 处 理 的 特殊 过 程 。 
同时 ， 挖 掘 分 析 任务 具有 数据 密集 型 与 资源 密集 型 相 结 
合 的 特征 ， 也 存在 即时 分 析 、 在 线 分 析 以 及 离线 分 析 等 
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异 明 显 的 服务 响应 需求 ， 因 此 需要 探索 提供 高 效 的 资 
管理 和 任务 调度 机 制 ， 以 满足 大 规模 并 发 用 户 的 差异 


化 支撑 需求 。 


数据 资源 库 提供 公共 数据 资源 和 个 人 数据 资源 管 


理 ， 文 持 用 户 在 数据 资源 库 方便 快捷 地 查找 、 导 入 个 人 
数据 资源 ， 并 进行 数据 共享 。 算 法 与 模型 库 提 供 通用 算 
法 及 模型 、 领 域 算法 及 模型 管理 ， 支 持 算法 和 模型 的 二 
次 开发 、 共 享 与 性 能 优化 。 其 中 ， 针 对 基于 大 数据 训练 


得 


EX 


E 


3 
Vii 


到 的 模型 ， 可 探索 采用 迁移 学 习 等 技术 实现 跨 领 域 共 


o 


智能 分 析 环 境 提供 多 种 智能 分 析 模 式 。 其 中 ， 工 作 
模式 主要 面向 领域 内 相对 固化 的 分 析 场 景 ; 代码 开发 


模式 主要 面向 具有 研发 能 力 和 灵活 分 析 需 求 的 科学 家 团 


BA; 可 视 交 互 式 分 析 模 式 主要 面向 依赖 可 视 化 观察 分 析 


的 
更 


用 
程 


隔 


应 用 场景 。 未 来 还 可 以 扩展 到 虚拟 现实 、 增 强 现实 等 
多 的 分 析 模 式 。 

该 软件 系统 通过 浏览 需 提 供 在 线 的 挖掘 分 析 服 务 ， 
户 通过 注册 账户 就 可 开展 一 站 式 的 分 析 工 作 ， 在 此 过 
中 云 服 务 需要 确保 科学 家 数据 安全 和 用 户 分 析 工 作 的 
离 。 此 外 ， 需 要 探索 利用 微服 务 架 构 ， 实 现 面向 不 同 


科学 领域 需求 的 领域 化 定制 。 
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软 
很 
布 


E 
Tí 


结语 
科学 技术 是 第 一 生产 力 ， 而 科学 大 数据 的 智能 分 析 
件 则 是 科学 研究 的 重要 支撑 工具 。 国 内 科学 家 团队 在 


多 细 分 领域 都 取得 了 世界 瞩目 的 成 果 ， 但 是 并 没有 发 
具有 世界 影响 力 的 开放 的 智能 分 析 软 件 。 因 此 ， 迫 切 
要 国内 科学 家 团队 与 信息 技术 研究 团队 联合 起 来 ， 瞄 
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准 交 叉 领 域 的 科学 探索 与 知识 发 现 ， 充 分 考虑 不 同 领域 
科学 家 团队 的 大 数据 分 析 需 求 ， 设 计 研 发 出 更 适用 于 科 
学 大 数据 的 智能 分 析 软 件 系 统 ， 为 人 类 科技 进步 贡献 力 


fat 


o 
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Current Situation and Trend of Intelligent Analysis Software for 
Scientific Big Data 


ZHONG Hua' LIU Jie WANG Wei 
( Institute of Software, Chinese Academy of Sciences, Beijing 100190, China ) 

Abstract The field of artificial intelligence has made a breakthrough in recent years. How to promote scientific discovery in the field of 
natural science, especially the field of Earth Science with mass and multi-source data, has become the focus of scientists and industry. The 
scientific data mining analysis and knowledge discovery in the multidisciplinary and cross field intersecting background depend on building a 
set of efficient, easy to use and extensible scientific data analysis software system for scientific data. It provides learning models, algorithms and 
development tools for complex data processing, analysis, pattern extraction and knowledge discovery. In this study, the representative intelligent 
analysis software system in the typical scientific field is selected to make a full investigation and comparison on the generality and difference of 
this kind of software, and the development trend is also discussed. On this basis, this study proposes an integrated and customizable intelligent 
analysis framework for scientific big data, which supports the interactive construction of intelligent analysis models, and provides systems and 
tools supporting for the rapid development of scientific discovery research. 


Keywords scientific big data, intelligent analysis, data intensive scientific discovery, software system 
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